Celem projektu była analiza próbek krwi pacjentów przyjętych do szpitala Wuhan.
Zakrez profektu obejmował załadowanie danych, ich wstępną obróbkę, analizę statystyczną zbioru danych z przykłądową wizualizacją, analizę korelacji atrybutów oraz stworzenie klasyfikatora przewidującego przeżycie lub zgon pacjenta.
Użyte w projekcie pakiety zaprezentowane zostały na poniższej liście:
## [1] "tidyr" "corrplot" "repr" "plotly" "dplyr" "ggplot2"
## [7] "openxlsx" "stats" "graphics" "grDevices" "utils" "datasets"
## [13] "methods" "base"
Zbiorem wejściowym był arkusz XLS zawierający wyniki badań próbek krwi od pacjentów przyjętych do szpitala w Wuhan.
Do załadowania danych wykorzystano funkcję read.xlsx z biblioteki openxlsx:
wuhan <- read.xlsx(xlsxFile = "M:\\Studia\\Hurtownie\\R\\Projekt\\wuhan_blood_sample_data_Jan_Feb_2020.xlsx", fillMergedCells = TRUE, colNames = TRUE)
Było to konieczne ze względu na fakt, że kolumna oznaczająca numer pacjenta była scalona dla wszystkich wierszy danego pacjenta. Należało zatem znaleźć sposób na załadowanie danych z rozpropagowaniem numeru pacjenta na poszczególne wiersze.
Po załadowaniu danych wykonano następujące czynności:
- dokonano zmiany nazw kolumn opisujących pacjenta, pozostawiono oryginalne nazwy kolumn opisujących parametry krwi
- dodano kolumny Przyjęcie i Zwolnienie oraz przekształcono pola daty
- dodano kolumnę liczbaDniPobytu
- usunięto kolumny: RE_DATE, Admission.time i Discharge.time
Zbiór zawierał 6120 próbek krwi, pobranych od 375 pacjentów.
Wiek pacjentów kształtował się w przedziale od 18 do 95 lat.
Przyjęcia pacjentów do szpitala odbywały się w okresie: od 2020-01-12 do 2020-02-19.
Zwolnienia pacjentów ze szpitala miały miejsce w okresie: od 2020-01-25 do 2020-03-06.
Najdłuższy odnotowany pobyt pacjenta w szpitalu wynosił 35 dni.
Rozkład wieku pacjentów w podziale na osoby, które przeżyły i zmarły przedstawia poniższy histogram:
Stwierdzono, że najliczniejszą grupę pacjentów stanowiły osoby w wieku z przedziału 60-70 lat.
Zauważono ponadto, że pobyt w szpitalu dla pacjentów w wieku >70, znacznie znacznie częściej kończył się śmiercią, niż dla młodszych pacjentów.
Poniższy interaktywny wykres przedstawia dodatkowo rozkład liczby przyjęć do szpitala i zwolnień ze szpitala w poszczególnych dniach:
Widoczny spadek liczby przyjęć w dniach 08-10.02.2020 może wynikać z faktu, że był to weekend (sobota-poniedziałek).
W celu znalezienia korelacji zbiór danych zagregowano w/g atrybutu ID_Pacjenta. Podczas agregowania danych wyznaczono wartości parametrów krwi jako maksimalne wartości dla danego pacjenta. Powtórzone obliczenia bazujące na wartościach minimalnych lub średnich przyniosły identyczny wynik.
Na początek sprawdzono czy istnieje znacząca korelacja liniowa (Pearsona) pomiędzy atrybutami.
W analizie pominięto kolumny dotyczące daty pobrania próbki, daty przyjęcia do szpitala i daty zwolnienia ze szpitala.
Odfiltrowano również korelacje atrybutów nie powiązane z atrybutem Zgon.
Jako próg minimalny współczynnika korelacji przyjęto wartość 0.5.
Obliczony współczynnik Pearsona według przyjętych założeń przedstawia się następująco:
## Atrybut1 Atrybut2 Wspolczynnik
## 1 Wiek Zgon 0.5617885
Jedyna zależność liniowa dotyczy związku wieku pacjenta z faktem przeżycia lub śmierci.
Otrzymana wartość potwierdza zależność, którą stwierdzono obserwując histogram wieku pacjentów.
Następnie wyznaczono współczynnik Spearmana pomiędzy atrybutami, wskazujący na zależność monotoniczną. Przyjęto podobne założenia jak dla obliczania współczynnika Pearsona, jednak próg minimalny współczynnika korelacji zwiększono do wartości 0.6 ze względu na dużą liczbę znalezionych korelacji i czytelniejszą prezentację wyniku.
Wyznaczone współczynniki korelacji Spearmana dla funkcji agregującej “maksimum” przedstawiają się następująco:
Wyznaczone współczynniki korelacji Spearmana dla funkcji agregującej “minimum” przedstawiają się następująco:
W zależności od przyjętej funkcji agregującej, największe wartości współczynnika odnotowano dla: (%)lymphocyte
Lactate.dehydrogenase
w przypadku funkcji “maksimum”, oraz
Lactate.dehydrogenase
High.sensitivity.C-reactive.protein
w przypadku funkcji “minimum”.
Obserwacja ta jest zgodna z tezami autorów artykułu: https://www.nature.com/articles/s42256-020-0180-7 w którym pojawiają się stwierdzenia:
“Hence, the number of key features was set to the following three: lactic dehydrogenase (LDH), lymphocytes and high-sensitivity C-reactive protein (hs-CRP).”
oraz
“Table 3 further emphasizes the importance of LDH as a crucial biomarker for patient mortality rate.”
Autorzy określili 3 parametry krwi (%)lymphocyte, Lactate.dehydrogenase, High.sensitivity.C-reactive.protein jako kluczowe przy określaniu szansy przeżycia pacjenta, z wiodącą rolą Lactate.dehydrogenase.